首页> 外文OA文献 >Translating Videos to Natural Language Using Deep Recurrent Neural Networks
【2h】

Translating Videos to Natural Language Using Deep Recurrent Neural Networks

机译:利用深度递归神经网络将视频翻译成自然语言   网络

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

Solving the visual symbol grounding problem has long been a goal ofartificial intelligence. The field appears to be advancing closer to this goalwith recent breakthroughs in deep learning for natural language grounding instatic images. In this paper, we propose to translate videos directly tosentences using a unified deep neural network with both convolutional andrecurrent structure. Described video datasets are scarce, and most existingmethods have been applied to toy domains with a small vocabulary of possiblewords. By transferring knowledge from 1.2M+ images with category labels and100,000+ images with captions, our method is able to create sentencedescriptions of open-domain videos with large vocabularies. We compare ourapproach with recent work using language generation metrics, subject, verb, andobject prediction accuracy, and a human evaluation.
机译:解决视觉符号接地问题一直是人工智能的目标。随着自然语言基础静态图像深度学习的最新突破,该领域似乎正在朝着这个目标迈进。在本文中,我们建议使用具有卷积和递归结构的统一深度神经网络将视频直接翻译成句子。所描述的视频数据集很稀少,并且大多数现有方法已被应用到玩具领域,而这些领域的词汇很少。通过从具有类别标签的120万张图像和带有标题的10万张图像中转移知识,我们的方法能够创建具有大词汇量的开放域视频的句子描述。我们将我们的方法与使用语言生成指标,主语,动词和宾语的预测准确性以及人工评估的最新工作进行比较。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号